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摘 要 : 基于 深度 学 习 的 跨 模 态 哈 希 方法 都 使 用 小 批量 训练 方式 来 训练 模型 ， 然 而 小 批量 方式 在 每 次 更 新 参数 时 获 
取样 本 数量 有 限 ， 不 能 得 到 很 好 的 梯度 ， 影 响 最 终 训练 的 模型 的 检索 性 能 。 针 对 此 问题 ， 提 出 了 一 个 新 的 跨 模 态 哈 
希 方法 ， 该 方法 使 用 大 批量 方式 进行 训练 ， 并 引入 正 交 正则 化 来 增加 大 批量 训练 的 稳定 性 ， 同 时 考虑 了 哈 希 码 的 离 
散 性 ， 将 哈 希 码 与 特征 之 间 的 距离 加 入 到 目标 函数 中 ， 使 得 哈 希 码 能 够 更 加 真实 的 表示 数据 。 在 两 个 广泛 使 用 的 跨 
模 态 检索 数据 集 上 的 实验 表明 该 方法 比 现 有 的 几 种 哈 希 方法 具有 更 好 的 性 能 。 
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Abstract: The cross-modal hashing methods based on deep learning use the small batch training method to train their model. 
However, it cannot get a good gradient using this training method due to the limited number of samples in each parameter 
update, which affects the retrieval performance of the final trained model. To solve the problem, this paper proposed a new 
cross-modal hashing, which used large batch training and introduced orthogonal regularization to increase the stability of this 
kind of training. And to consider the discreteness of hash codes, the objective function added the distance between hash codes 
and features which made hash codes to represent data more realistically. Extensive experiments on two widely used public 
datasets in cross-modal hashing show that this method achieves better performance than several existing hashing methods. 
Key words: cross-modal hashing; large batch training; orthogonal regularization; the distance between hash codes and 
features 


0 引言 三 元 组 深度 哈 希 (triplet-based deep hashing, TDH)“, 采用 三 元 
组 (查询 样本 , 正 样本 , 负 样 本 ) 的 形式 输入 训练 数据 ,三 元 组 

随 着 互联 网 和 多 媒体 技术 的 快速 发 展 ， 产 生 了 大 量 不 同 形式 能 够 更 加 灵活 地 捕捉 所 有 可 能 的 语义 相似 性 ， 并 且 还 考 
模 态 的 多 媒体 数据 ， 比 如 图 像 、 文 本 、 视 频 等 。 不 同 模 态 的 虑 了 模 态 间 和 模 态 内 的 相似 性 。Zhang 等 人 提出 半 监 督 生成 
数据 可 以 用 于 描述 同一 个 事物 ， 多 视角 地 展现 信息 ， 可 以 帮 对 抗 跨 模 态 哈 希 (semi-supervised cross-modal hashing by 
助 用 户 获 得 该 事物 的 综合 理解 。 随 着 不 同 模 态 的 多 媒体 数据 generative adversarial network , SCH-GAN)BI, i| Fg 4 
快速 增长 ， 跨 模 态 检索 成 为 了 研究 热点 。 跨 模 态 检索 的 关键 网 络 GAN 进行 对 抗 训练 。 
在 于 对 不 同 模 态 的 多 媒体 数据 的 关系 进行 建 模 ， 难 点 主要 是 大 多 基于 深度 学 习 的 跨 模 态 哈 希 方法 都 采用 小 批量 训练 
不 同 模 态 的 多 媒体 数据 存在 异 构 性 鸿沟 ， 无 法 进行 直接 比较 方式 训练 模型 ， 比 如 文献 [3,5] 训 练 批量 大 小 为 64, 文献 [4 训 
中。 跨 模 态 哈 希 方法 可 以 有 效 地 为 不 同 模 态 的 数据 建立 比较 练 批量 大 小 为 128， 这 会 使 得 在 训练 过 程 中 每 次 更 新 参数 时 
关系 ， 将 不 同 模 态 的 数据 映射 到 共同 的 汉 明 空间 中 ， 每 个 数 获取 样本 数量 有 限 ， 不 能 得 到 很 好 的 梯度 ， 影 响 最 终 训 练 的 
据 都 被 转换 成 一 个 固定 长 度 的 二 进 制 哈 希 码 ， 通 过 将 哈 希 码 模型 的 检索 性 能 。 
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按 位 异 或 运算 ， 可 以 得 到 数据 间 的 汉 明 距离 ， 进 而 得 到 数据 大 批量 训练 在 每 次 更 新 参数 时 是 基于 更 多 的 样本 ， 会 得 
间 的 相似 性 。 到 更 好 的 梯度 ， 同 时 也 使 得 每 轮训 练 时 间 更 少 。 基 于 以 上 特 
随 着 深度 学 习 的 发 展 ， 越 来 越 多 的 基于 深度 学 习 的 跨 模 ”点 , 越 来 越 多 学 者 在 不 同 研究 领域 探索 大 批量 训练 Goyal 等 


态 哈 希 方法 被 提出 。Jiang 等 人 提出 深度 跨 模 态 哈 希 (deep 人 中 在 ImageNet 数据 集 上 采用 大 批量 方式 训练 ResNet-50 网 
cross-modal hashing, DCMHJ)D， 使 用 深度 神经 网 络 的 端 到 端 ”” 络 模型 ， 批 量 大 小 为 8192， 使 训练 时 间 缩 小 到 一 小 时 ， 训 练 
学 习 框 架 进 行 特征 学 习 , 直接 学 习 离散 的 二 进 制 码 。Zhang 等 的 模型 精度 可 以 和 小 批量 训练 方式 训练 的 模型 精度 媲美 。 

人 提出 无 监督 生成 对 抗 跨 模 态 哈 希 (unsupervised generative You 等 人 [将 大 批量 训练 扩展 到 了 自然 语言 处 理 领 域 ， 收 到 
adversarial cross-modal hashing, UGACH)Bl， 利 用 生成 对 抗 网 了 很 好 的 效果 。Brock 等 人 将 大 批量 训练 应 用 到 图 像 生成 领 
络 (generative adversarial nets, GAN) 的 无 监督 表示 学 习 能 力 ， 域 ， 批 量 大 小 设 为 2048， 也 获得 了 很 好 的 性 能 。 但 是 ， 仅 仅 
学 习 跨 模 态 数据 的 底层 流 形 结构 ， 通 过 生成 模型 和 判别 模型 ” 增加 批量 大 小 会 导致 训练 极其 不 稳定 中， 还 容易 导致 网 络 的 
的 对 抗 训 练 来 提高 判别 模型 的 判别 能 力 。 Deng 等 人 提出 基于 泛 化 性 能 下 降 ， 出 现 “Generalization Gap” 问 题 00。 
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能 。 在 多 模 态 检 


小 批量 训练 模型 解决 了 生成 哈 希 码 的 元 余 问题 。 


索 领 域 ，Wang 等 人 03 引 入 正 交 正则 化 , 采用 


由 于 哈 希 码 是 离散 的 ， 大 部 分 跨 模 态 哈 希 方法 将 哈 希 码 


的 离散 学 习 问 题 松弛 为 连续 学 习 问 题 。 但 是 数据 的 连续 实 值 
特征 在 转换 为 哈 希 码 的 过 程 中 ， 会 出 现 信息 损失 ， 这 使 得 哈 


希 码 不 能 够 很 好 地 表示 数据 , 影响 检索 性 能 说 。 DCMHPER H 
将 哈 希 码 加 入 到 目标 函数 中 ， 直 接 学 习 哈 


小 批量 训练 模型 ， 
希 码 ， 而 不 进行 松弛 


综合 上 述 应 用 于 不 同 领域 的 研究 方法 ， 本 文 提 


出 了 基于 


大 批量 训练 和 正 交 正则 化 的 跨 模 态 


个 主要 特征 : a) 


模型 采 | 


量 训练 方式 进行 ; 
曾 加 大 批量 训练 模型 的 稳定 性 ; 
蛤 希 人 码 与 数据 特 和 
征 在 转换 成 哈 希 码 时 所 产生 的 信息 损失 将 减 小 ， 使 


化 用 于 


E 之 间 的 距离 ， 通 过 优化 


能 够 更 加 真实 的 表示 数据 。 
1 ， 基 于 大 批量 训练 和 正 交 正则 化 的 跨 模 态 哈 希 
在 本 节 中 将 详细 描述 本 文 所 提出 的 方法 。 为 了 曾 述 更 简 


洁 ， 本 文 只 考虑 图 像 和 文本 两 种 模 态 的 数据 ， 


其 他 


据 可 以 进行 相应 扩展 。 简 化 后 有 1 


图 像 ; b) 图 像 检索 文本 。 假定 


1, T llo, 表示 和 矩阵 的 Frobenius 范 数 。 


丛 希 方法 。 该 方法 包含 三 
| 三 元 组 的 方式 输入 数据 ,使 用 大 批 
| 练 ， 以 获得 更 好 的 梯度 ; b) 引入 正 交 正则 
c) 在 目标 函数 中 加 入 
标 函 数 ， 数 据 特 


得 哈 希 码 


RBAG, T=) 表示 文本 数据 。 丰 = {( 歼 ,五 必 为 数据 的 低 维 
特征 ， q 7 (4,4: Ya Xe z E V CR s H z(H, H; a PEE) 


的 模 态 数 
种 检索 任务 : 2) 文本 检索 
3 个 训练 数据 ，7= 人 入 表示 


s RO ds 


1.1 模型 结构 
本 模型 分 为 图 像 网 络 和 文本 网 络 两 部 分 .对 于 图 像 部 分 ， 
很 多 基于 深度 学 习 的 跨 模 态 哈 希 方法 使 用 卷 积 神经 网 络 
(CNN) 来 提取 图 像 的 特征 以 此 作为 模型 的 图 像 输 入 值 ， 比 如 
文献 [3, 3， 使 用 VGG-19 来 提取 图 像 特征 。 本 文 也 将 使 用 
VGG-19 来 提取 图 像 特征 作为 图 像 的 输入 值 ， 然 后 经 过 两 层 
全 连接 层 得 到 哈 希 码 。 而 对 于 文本 ， 则 使 用 词 袋 模型 (BoW) 
将 其 表示 成 向 量 ， 作 为 文本 网 络 的 输入 值 ， 同 样 经 过 两 层 全 
连接 层 得 到 哈 希 码 。 整 个 模型 的 框架 结构 如 图 1 所 示 。 
图 像 哈 希 码 学 习 损失 函数 
图 像 moo 全 连接 层 2 || 。 Dm 
文本 哈 希 码 学 习 
G— u —5 
LI ; 2 
zw 全 连接 层 2 哈 希 码 
图 1， 模型 框架 图 
Fig. 1 The framework of proposed model 
1.2 特征 学 习 部 分 
如 图 1 所 示 ， 首 先 将 图 像 或 者 文本 的 特征 经 过 第 一 层 全 
连接 层 映 射 到 一 个 共同 空间 ， 然 后 再 经 过 第 二 层 全 连接 层 得 
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正 交 正则 化 能 够 保持 矩阵 的 范 数 不 变 , 使 梯度 忠实 传播 ， ” 示 第 二 层 全 连接 层 。 / 表示 图 像 的 VGG-19 特征 或 者 文本 的 
防止 梯度 消失 5。 在 图 像 生成 研究 领域 ，Brock 等 人 0 引入 BoW 向 量 。 图像 的 低 维 特征 和 文本 的 低 维 特征 5 维度 相 
正 交 正则 化 ,提高 了 网 络 泛 化 能 力 ; 在 文献 [8] 中 , Brock 等 人 同 ， 便 于 度量 它们 之 间 的 相似 性 。 将 低 维特 征 下 通过 阔 值 函 
引入 正 交 正则 化 的 变 体 ， 使 得 截断 更 平滑 ， 实 现 了 更 好 的 性 ARARA, BE R Z F : 


1, ifF205 

EN s 0 
1.3 目标 函数 
于 图 像 检 索 文本 任务 和 文本 检索 图 像 任务 是 对 称 的 ， 
所 以 在 接 下 来 部 分 仅 介绍 文本 检索 图 像 任务 的 目标 函数 。 目 
标 函 数 主 要 分 成 三 部 分 : a) 文本 特征 5 和 图 像 特征 
万 ={ 甩 ,5 之 间 的 距离 ; b) 哈 希 码 瑟 和 特征 之 间 的 距离 ; 
c) w FIB 的 正则 化 项 。 

a) 文本 特征 玖 和 图 像 特征 互 ={5,,z} 之 间 的 距离 : 


D, 7|£, -Fb 


G3) 


D, zs IF. =F; l5 


(4) 


其 中 pA r 4 | de zs 3 tg CIS. n. 同 语义 和 不 同 语义 的 图 
fk. Par 表示 天 与 和 之 间 的 距离 。Dur 表示 二 与 和 之 间 的 距 
离 。 本 文 使 用 一 个 基于 边界 的 合 页 损失 函数 (a margin-based 
hinge loss function) 来 度量 ， 如 下 式 所 示 。 


12 
L == max(0, D, =D] 


(5) 


其 中 是 Dus 和 Dw 的 边界 值 , 是 一 个 可 调节 的 超 参 数 。n 表 
IWE dd) 个 数 。 当 减少 损失 函数 5 时 ，Dii 将 会 减 
小 ， 而 Dw 会 增 大 。 这 符合 语义 相似 数据 之 间距 离 小 ， 语 义 
不 同 数据 之 间距 离 大 的 原则 。 在 训练 优化 过 程 中 ， 希 望 降低 
Du: 的 值 , 增 大 Par 的 值 , BI Par 越 小 Par 越 大 越 好 。 因 此 ， 
可 以 将 该 过 程 转换 为 二 分 类 问题 ， 可 以 使 用 sigmoid 57 SOS ER 
数 来 作为 损失 函数 。 二 分 类 问题 的 sigmoid 交叉 炉 公式 如 下 : 
loss = -[zIn(sigmoid(x) + (1 — z)In(1 — sigmoid (x)))] (6) 
st. ze{0,1} 
其 中 x* 表示 输入 值 , 在 这 里 为 Dw 或 者 Dur 。z 表示 目标 值 。 
对 于 Dw ， 和 希望 Dr 尽 可 能 的 小 , 即 让 z=0, 将 其 带 入 式 (6)， 
可 以 得 到 如 下 公式 : 


loss, — —h( —sigmoid(D, ,.) = 100 + e°% ) (7) 
NET Par o WE Du 尽 可 能 的 大 , 即 让 z=1， 将 其 带 入 式 
(6)， 可 以 得 到 如 下 公式 : 
loss, =—In(sigmoid(D,, ) =In( +e ^«^ ) (8) 
将 式 (7) 和 (8) 结 合 ， 就 得 到 了 第 二 个 损失 项 : 
L= tE oss +loss,) (9) 


RRI L Ri UL. 具有 相似 的 效果 , 将 两 者 结合 可 以 
更 好 地 度量 图 像 和 文本 间 的 相似 性 。 

b) 哈 希 码 H 和 特征 F 之 间 的 距离 

哈 希 码 是 离散 的 ， 当 数据 的 实 值 特征 在 被 转换 为 哈 希 
码 H 时 ， 会 发 生 信息 损失 : 


Ds, rn = - Fs], 


(10) 
a1) 
Hr Ds 表示 查询 文本 w 的 低 维特 征 与 其 对 应 的 哈 希 
码 之 间 的 距离 。 Dns RR ER =U) 的 低 维特 征 
F, =F F) Ej HORREA T H -{8,H) 之 间 的 距离 。 可 以 


S5 


sn, = -F= E; -Fh Hs -Fh 


到 数据 的 低 维特 征 。 第 


层 全 连接 层 的 激活 函数 是 tanh 函数 ， 


而 第 二 层 全 连接 层 的 激活 函数 是 sigmoid 函数 。 整 个 过 程 可 


以 表示 如 下 : 
F = sigmoid (W, (tanh(W, f + B.)+B.)) (1) 
其 中 Ww 为 权重 ， B 为 偏 置 项 ， a 表示 第 层 全 连接 层 ， oR 


得 到 以 下 损失 项 : 
(12) 


对 该 损失 项 进行 优化 过 程 中 ， 会 使 得 哈 希 码 与 数据 的 特 
征 越 来 越 接 近 ， 将 会 减少 数据 特征 向 哈 希 码 转 换 过 程 中 的 信 
息 损 失 ， 使 得 哈 希 码 更 好 的 表达 数据 特征 。 


] 必 
L= 5 È Du, Ei +F Dy, F; ) 
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其 中 W"” 是 权重 矩阵 丈 PE, Da 表示 单位 矩阵 ，8 表示 偏 
项 。W 表示 文本 网 络 的 权重 ，B; 表示 文本 网 络 的 偏 置 项 ， 
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c) W 和 8 的 正则 化 项 2 . : 
l EIE, -Fh -|En -F >- 时 8 为 1， 否 则 8 为 0。Hs 只 


大 批量 训练 在 训练 模型 时 不 稳定 ,为 了 降低 其 负面 影响 ， 
本 文 引入 了 正 交 正则 化 来 作为 权重 Ww 的 惩罚 项 。 对 于 偏 置 项 
8 ， 仍 然 使 用 L2 正则 化 项 作为 惩罚 项 ， 可 以 得 到 损失 项 如 下 : 


L, = 0|W"W — Lie, 
= OW Wr - I, p +W; W, -1 uds? (13) 
B, ls,, Bus 


+ e|BIr., 


XÆ 


tO 


有 0, 1 两 种 值 ， 而 f,e0D, BrUL24 Hu 为 0 时 ， 


h 
oX |E, T E 


J 


为 0 的 值 变 为 -1， 为 1 的 值 保持 不 变 ， 得 到 一 个 变 体 BUT, 


/OF -l, 当 Hs, 为 1 时 ， 其 值 为 -1 。 因此 将 H,, 


W, 表示 图 像 网 络 的 权重 ，8 表示 图 像 网 络 的 偏 置 项 。 而 9 和 


o 是 超 参 数 。 


其 中 4 和 
E 


iL, L, LM LARE E, Son] AERA H PRR C: 


min L= L * AL, + yL, + L, 


1% 2 2 
= 二 2 人 max(0, | E, - F; -|En - 5. [D + 
aand el y nd eV 4 (14) 
7( Ha -Fy 1 H |2; -Fy l |n. -F, D )* 


(WEW; — Lar. + |W/"W, — Laelio) 
ox; |]... + lB) 


17 是 超 参数 。 
EE， 图 像 检 索 文本 任务 的 目标 函数 为 
minL= LY max(0, B+|F, -Fy > |, - 5D 
n^ li i N2 Ji i M2 
and elehna ete rhy 
rds, -Py h tha Rt -Fp )+ e 


OWE W, — Lae lloro + IWW, — Lal.) 
*ox|B; |, +B) 


其 中 7* 和 分 别 表示 与 查询 图 像 41 同 语义 和 不 同 语义 的 文本 。 


1.4 优化 过 程 
于 有 图 像 检 索 文 本 和 文本 检索 图 像 两 种 检索 任务 ， 因 
此 将 分 别 对 模型 进行 训练 ， 具 体 如 下 过 程 : 


训练 轮 次 为 。; 


不 同 


ER 


FH 


a) 首先 初始 化 权重 W 和 偏 置 项 8, 设 定 批量 大 小 为 和 


b) 为 每 个 查询 文本 41 随机 取出 mr 个 同 语义 的 图 像 太 和 
语义 的 图 像 志 组 成 三 元 组 (2 六 大 ) ， 作 为 训练 数据 ， 对 
文本 网 络 进行 训练 。 固 定 允 RU B, , ERANA W RU B; 


E 


X o 


Sp W 求 偏 导 为 
ominL_ 1 (dEn -Fb -lEn -F 
OW, E OW, di 


[Farf Fart 
à O(In(1 e )+ln(l +e ) " 


OW, 
alH, Es FE, | Mi m) F; l us |A,- T F; D 4 
T oW, 
00|Wi"W, — Lue llino 
OW, 
h 
MeO a a (16) 
TT J 
"n > > OF 2d 
NEUE UY )+InG+ E D, 
ôF, 
h 
6y |H, -F 2 
; > drj ^ri OF, " 0O ||WE W, z Laeli 


oF OW, OW, 


表示 特征 的 维度 , 也 就 是 哈 希 码 的 长 度 。 对 于 任意 矩阵 A， 


有 14| 


,=tr(474)=tr(447) ， 因 此 由 式 (16) 得 到 : 


ÓóminL 1 忆 忆 Fa, En 
三 一 2(F — F, )g + 2A(—— 2 
oW, roa * id 1 DIG -Fp 
+e j , 
F; SB OF, Vn 
£— —21—2- fügt) OW Wi — Lae YW 
Drm Fy? T 
1+ey 


同 理 可 以 得 到 B; 的 偏 导 数 , 然后 采用 后 向 传播 算法 更 新 
权重 WW 和 偏 置 项 B, 。 
c) 为 每 个 查询 图 像 4 随机 取出 mw 个 同 语义 的 文本 Tr 和 
司 语义 的 文本 组 成 三 元 组 (41,77,7) ， 作 为 训练 数据 ， 
图 像 网 络 进行 训练 。 固 定 W 和 B, ， 与 求 W 和 8; 的 偏 导 数 
以 ， 通 过 式 (15) 求 偏 导 ， 采 用 后 向 传播 算法 更 新 权重 W 和 
置 项 8,。 
整个 方法 如 算法 1 所 示 。 
算法 1 算法 描述 


输入 : 训练 数据 7 ,7 ; 


输出 : 权重 W SE s 
1 随机 初始 化 权重 W 和 5, 训练 批量 大 小 设 为 b, 训练 轮 次 设 为 。; 


2 for epoch-0,1,2, ..., e-l do 


3 if epoch230--0 do 
4 for qr 7 T, T, T, do 
5 BG BLEU HB m AP 5; ig SCA n FE OS EISE TE 01 EL ER Tz ELE fg c 


Ak a AS RR EISE 640 ER F 2H p m AETH Qn 47510 ， 作 为 训练 数据 。 
6 end for 

7 end if 

8 for step=1.2…,| k*m/b | do 

9 Ee W, 和 B, ,通过 式 (14) 求 偏 导 , 采用 后 向 传播 算法 更 新 权 
E W, 和 偏 置 项 Br 。 


10 end for 

11 if epoch%30==0 do 

12 for gq,=1,L,…,lido 

13 随机 取出 个 与 查询 图 像 % 相 关 的 正 例文 本 五 和 与 查询 
图 像 % 不 相关 的 负 例文 本 T 组 成 严 个 三 元 组 (90 做 五 ) ， 作 为 训练 数 
Bs 

14 end for 

15 end if 

16 for step=1.2…,| k*m/ b | do 


17 固定 W 和 Br, WER) Rm SHE In Pe ETE ER 
权重 W, ftu B, 
18 end for 


19 end for 
2 ”实验 


在 本 章 中 ， 将 在 两 个 广泛 用 于 跨 模 态 哈 希 的 数据 集 上 评 

估 本 文 方法 的 性 能 ， 并 与 几 个 比较 先进 的 方法 进行 对 比 。 

2.1 数据 集 
本 文 分 别 在 Wikipedia} MIRFlickr4 数 据 集 上 开展 实验 。 
Wikipedia 数据 集 是 一 个 流行 的 数据 集 ， 它 由 10 个 类 别 
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共 2866 个 文本 /图 像 数据 对 组 成 。 本文 将 其 中 2173 个 数据 对 的 方法 ,可 以 直接 输入 图 像 ， 本 文 用 pcMH 表示 前 述 对 比 形 
作为 训练 数据 集 和 检索 数据 集 ， 剩 余 的 693 个 数据 对 作为 测 。 式 , 另外 用 DcMH 表示 直接 将 图 像 作为 输入 值 进行 训练 。 对 


试 数据 集 。 每 个 图 像 由 深度 学 习 框 架 Keras 应 用 程序 中 的 19 ” 比 的 五 个 方法 的 代码 都 由 相应 的 作者 提供 。 对 于 本 文 的 方法 ， 

JZ VGGNet 的 fc2 层 提取 的 4096 维特 征 表示 , 而 每 个 文本 1 参考 文献 [5] 将 超 参数 设置 为 : 4=001，y=0.01 和 w=0.01; 参考 

1000 维 的 BoW 的 向 量 表示 。 文献 [8]， 令 9=0.0001; 对 于 8 ， 哈 希 码 位 数 不 同 ， 在 汉 明 空间 
MIRFlickr 数据 集 从 Flickr 网 站 上 收集 得 到 , 包含 25000 ”中 的 维度 就 不 同 ， 位 数 越 大 ， 维 度 越 大 ， 边 界 值 越 大 才能 


个 文本 /图 像 数据 对 ， 分 为 24 个 类 别 。 但 是 其 为 人 工 标注 ， 好 的 在 汉 明 空间 中 将 正 例 数 据 和 负 例 数据 分 开 。 哈 希 码 位 数 
有 些 图 像 没 有 文本 描述 ， 有 些 图 像 没有 类 别 ， 需 要 对 其 进行 4) 8173 16.32 和 64 位 (bits), P 分 别 为 6.8 和 10。 在 Wikipedia 
第 选 。 首 先 预 处 理 文本 ， 移 除 标点 符号 和 停 用 词 ， 然 后 统计 数据 集 上 的 学 习 率 为 0.08， 在 MIRFlickr 数据 集 的 学 习 率 为 
各 个 单词 的 次 数 ， 取 出 现 20 次 以 上 的 单词 组 成 BoW 的 词汇 ”0.016。 与 文献 [3, 5] 类 似 , 对 于 每 一 个 数据 挑选 出 相应 的 数据 
表 ， 移 除 不 包含 在 词汇 表 中 单词 的 文本 /图 像 数据 对 ， 同 时 也 ”组 成 4 个 三 元 组 用 于 训练 , 即将 m 设 为 4, 因此 对 于 Wikipedia 
移 除 没有 文本 描述 的 图 像 或 者 没有 类 别 的 文本 /图 像 数 据 对 。 ”数据 集 总 共有 2173*4=8692 个 三 元 组 ， 对 于 MIRFlickr 数据 
经 过 这 些 处 理 后 还 剩余 20819 个 文本 /图 像 数据 对 。 随机 取出 和 焦 总 共有 5000*4=20000 个 三 元 组 。 批量 大 小 5b 设 为 8192。 本 
其 中 的 5% 的 数据 对 作为 测试 数据 集 ， 剩 余数 据 对 作为 检索 。” 文 使 用 tensorflow 深度 学 习 框架 来 实现 代码 ， 有 具体 的 软件 版 
数据 集 , 并 随机 取出 5000 个 数据 对 作为 训练 数据 集 。 每 个 图 本 是 python3.5.2 和 tensorflow1.11.0。 所 有 的 实验 都 是 在 
像 都 由 Keras 应 用 程序 中 的 19 E VGGNet 的 fc2 层 提取 的 。” NVIDIA GTX 1080Ti 图 形 卡 , Intel(R) Xeon(R) E5-2620 v4 


H 


4096 维特 征 表示 ， 而 每 个 文本 由 1386 维 的 BoW 的 向 量 表 2.10GHz CPU, 128 GB 内 存 的 机 器 上 运行 得 到 。 
示 。 相 关 统 计 信 息 见 表 1 。 2.4 实验 结 
表 1 两 个 基准 数据 集 的 统计 信息 de 2 和 3 分别 展示 了 各 个 方法 在 MIRFlickr 和 Wikipedia 
Tab.1 Statistics of two benchmark datasets 数据 集 上 的 MAP 的 实验 结果 。 从 结果 可 以 看 出 ， 对 于 32 位 
Wikipedia MIRFlickr 和 64 位 的 哈 希 码 ， 本 文 的 方法 在 两 个 数据 集 上 都 取得 了 最 
数据 集 大 小 2866 20819 好 的 结果 。 总 体 来 看 ， 与 第 二 好 的 方法 SCH-GAN 相 比 ,在 
训练 集 2173 5000 图 像 检 索 文 本 的 任务 中 ， 本 文 的 方法 在 MIRFlickr 和 
测试 集 693 1041 Wikipedia 数据 集 上 分 别 比 其 大 约 高 出 了 1.8% 和 8.226; 而 在 
检索 集 2173 19778 文本 检索 图 像 的 任务 中 ， 则 分 别 大 约 提高 了 1.3% 和 2%。 这 
类 别 10 24 主要 是 因为 本 文 使 用 大 批量 训练 模型 ,可 以 得 到 更 好 的 梯度 ， 
2.2 评价 指标 并 使 用 正 交 正则 化 使 训练 更 加 稳定 。 还 因为 将 哈 希 码 与 数据 
本 文 在 每 个 数据 集 上 执行 两 种 检索 任务 :图 像 检索 文本 ”特征 之 间 的 距离 添加 到 损失 函数 中 ， 使 得 哈 希 码 更 真实 地 表 
和 文本 检索 图 像 ， 分 别 用 image 一 text 和 text2image 表示 。 示 数 据 的 特征 。 对 于 16 位 的 哈 希 码 , 由 于 其 长 度 不 能 充分 表 
本 文 使 用 两 个 广泛 使 用 的 评价 标准 来 评价 跨 模 态 哈 希 的 检索 示 数 据 特征 ， 尽 管 本 文 的 方法 在 Wikipedia 数据 集 上 取得 了 
性 能 ， 如 下 所 示 。 最 好 的 成 绩 ， 但 在 MIRFlickr 数据 集 上 只 是 第 二 好 ， 说 明 哈 
a) mean average precision (MAP): 表示 所 有 查询 数据 的 希 码 长 度 对 MAP 定 的 影响 。 
average precisions (AP) 的 均值 。 其 中 AP 表示 查询 的 平均 准确 表 2 在 MIRFlickr 数据 集 上 的 MAP 
率 ， 定 义 如 下 : Tab.2 The MAP scores on mirflickr dataset 
los R FT 1image«text text image 
AP mu ue (18) 方法 16 32 64 16 32 64 
其 中 * 表 示 检 索 数 据 集 中 所 有 的 相关 数据 的 数量 , s 表示 检索 SePH,,, 05 0.7364 0.7367 0.7451 0.7486 0.7514 0.7573 
数据 集中 所 有 的 数据 的 数量 ,表示 检索 出 的 前 7 个 数据 中 的 SePH,,,U5 0.7377 0.7459 0.7467 0.7522 0.7595 0.7599 
相关 数据 的 数量 ，rel 表示 第 :个 数据 是 否 是 相关 数据 ， 如 果 GSPH,,,,U9) 0.7279 0.7425 0.7541 0.7579 0.7693 0.7760 
为 1， 则 相关 ， 如 果 为 0， 则 不 相关 。 GSPH,,, 9 0.7374 0.7485 0.7584 0.7614 0.7729 0.7798 
b) Precision-recall 曲线 (PR- 曲 线 );， 表示 准确 率 召 回 率 UGACHD 0.6100 0.6045 0.5848 0.6278 0.6029 0.6101 
曲线 ， 在 不 同 召回 率 下 的 检索 准确 率 ， 常 常用 于 评价 检索 性 DCMH sigma 2! 0.7296 0.7363 0.7386 0.7639 0.7650 0.7703 
能 。 DCMH,,,U! 0.7433 0.7527 0.7592 0.7669 0.7792 0.7837 
2.8 对 比方 法 和 实现 细节 SCH-GANP! 0.7203 0.7481 0.7609 0.7661 0.7851 0.7884 
本 文 与 两 个 非 深度 学 习 方法 SePHI53 和 GSPHUSEfT T 本 文 算法 0.7410 0.7571 0.7718 0.7822 0.7915 0.7953 
对 比 ，SePH 和 GSPH 都 是 基于 核 的 ,使 用 核 逻 辑 回 归 (KLR) 表 3 在 Wikipedia 数据 集 上 的 MAP 
学 习 哈 希 函 数 来 取得 最 好 的 结果 ， 都 分 别 采 用 了 k- 均 值 算法 Tab.3 The MAP scores on Wikipedia dataset 
和 随机 抽样 法 。 因 此 ， 在 对 比 这 两 种 方法 时 ， 用 klr+k 表示 P imagetext textimage 
使 用 ke- 均值 算法 的 核 逻 每 回归， 而 用 klrer 表示 使 用 随机 抽 1 
样 的 核 逻 辑 回归 。 男 外 还 与 现 有 三 个 基于 深度 学 习 的 跨 模 态 SePH，,05 0.5009 0.5287 0.5393 0.5508 0.5955 0.6190 
哈 希 方法 DCMHPJ, UGACHPHfII SCH-GANP! 进行 了 对 比 ， SePH sl 0.4997 0.5252 0.5413 0.5584 0.6009 0.6122 
DCMH 采用 端 到 端 网 络 结构 ， 直 接 学 习 哈 希 码 ，UGACH 和 GSPH 9 0,5064 0.5289 0.5320 0.5701 0.6001 0.6237 
SCH-GAN 都 基于 生成 对 抗 网 络 GAN， 采 用 三 元 组 方式 输入 GSPH,,, aqg 0.5117 0.5318 0.5390 0.5801 0.6036 0.6207 
数据 。 在 本 文 实验 中 要 用 到 图 像 和 文本 两 种 模 态 数据 ， 对 比 UGACHD 0.3332 0.3605 0.3688 0.3222 0.3323 0.3471 
时 在 将 一 种 模 态 的 数据 作为 查询 数据 集 的 时 候 ， 将 另 一 种 模 DCMH sigma P! 0.4503 0.4506 0.4120 0.7419 0.7238 0.6940 
态 的 数据 作为 检索 数据 集 。 为 了 公平 对 比 ， 所 有 方法 都 采用 DCMH,,,?! 0.4387 0.4698 0.4809 0.8279 0.8457 0.7927 
3.1 节 中 描述 的 图 像 和 文本 的 表示 形式 作为 输入 值 , 即 图 像 值 SCH-GAN 回 0.5207 0.5370 0.5076 0.8352 0.8351 0.8288 
是 4096 维特 征 , 文本 是 BoW [8] 5. DCMH 作为 一 种 端 到 端 本 文 算法 0.5528 0.5712 0.5688 0.8426 0.8502 0.8572 


202009.00108v1 


" 
C] 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 张 学 旺 ， 等 : 基于 大 批量 训练 和 正 交 正则 化 的 跨 模 态 哈 希 方 法 第 38 卷 第 3 期 
图 2 和 3 分 别 给 出 了 各 个 方法 在 Wikipedia 和 MIRFlickr 此 外 ， 本 文 还 在 Wikipedia 数据 集 上 比较 了 不 同 批量 大 
数据 集 上 的 32 位 和 64 位 哈 希 码 所 对 应 的 PR- 曲 线 。 从 图 中 ”小 和 正 交 正则 化 对 模型 训练 的 影响 。 批 量 大 小 分 别 设置 为 
可 以 看 出 ， 本 文 的 方法 比 其 他 方法 都 要 好 。 512, 2048 和 8192。 提 高 批量 大 小 需要 增加 学 习 率 ， 才 能 保 
mer tme m nteger tno Hom 证 收敛 速度 ， 因 此 学 习 率 分 别 为 0.02、0.04 和 0.08。N 表示 
ot SEI OLI 不 使 用 正 交 正则 化 ，Y 表示 使 用 正 交 正 则 化 。 当 不 使 用 正 交 
Sos du 正则 化 时 ， 用 L2 正则 化 来 代 奉 。 即 式 (13) 被 替换 为 
E yos 
T E La - o, e o ol, +B) (19) 
ee 其 余 参数 配置 都 一 样 ， 所 有 的 实验 结果 如 表 4 所 示 。 在 
rr 10 paii 评价 性 能 好 坏 时 ,不 仅 需要 看 图 像 检索 文本 任务 的 MAP, 也 
go $5 需要 考虑 文本 检索 图 像 任 务 的 MAP, 因此 表 4 也 给 出 了 两 个 
Eoi Šoa TAH MAP。 从 表 中 可 以 看 出 ,仅仅 增 大 批量 效果 并 不 好 ， 
HON mmm 甚至 还 有 所 降低 ,这 主要 因为 批量 增 大 后 ,模型 训练 不 稳定 ， 
m en 网 络 泛 化 能 力 下 降 ， 而 在 使 用 同一 个 批量 大 小 进行 训练 时 ， 
图 2 在 Wikipedia 数据 集 上 的 PR 曲线 图 如 果 使 用 了 正 交 正则 化 ， 会 得 到 更 好 的 果 ， 但 是 每 轮训 练 时 
Fig.2 The PR-curves on Wikipedia dataset 闻 会 增加 。 而 增 大 批量 可 以 加 快 训练 速度 ， 降 低 每 轮训 练 的 
ne 时 间 。 总 体 上 来 看 , 当 批量 大 小 为 8192, 使 用 了 正 交 正则 化 ， 
* ui D od * MAT 本 文 方法 得 到 了 最 好 的 结果 。 
Em ss 3 ”结束 语 
“CN EEA, 在 目前 广泛 应 用 的 跨 模 态 检索 的 研究 领域 ， 本 文 提出 了 
un 一 个 新 的 跨 模 态 哈 希 方法 其 于 大 批量 训练 和 正 交 正则 化 
"mmm e 的 跨 模 态 哈 希 方法 。 该 方法 采用 三 元 组 的 方式 输入 数据 ， 合 
Soe i ] 大 批量 训练 方式 进行 训练 ， 引 入 正 交 正则 化 使 得 模型 训练 
Éor io 更 加 稳定 ， 并 且 还 度量 了 哈 希 码 和 数据 特征 之 间 的 距离 ， 使 
"LP ITERRM EEA, 得 哈 希 码 能 够 更 好 地 表示 数据 。 在 两 个 广泛 使 用 的 Wikipedia 
im 和 MIRFlickr 数据 集 上 的 实验 结果 证 明了 该 方法 的 有 效 性 ， 
图 3 在 MIRFlickr 数据 集 上 的 PR 曲线 图 相 比 现 有 的 几 种 哈 希 方法 具有 更 好 的 性 能 。 
Fig.3 The PR-curves on mirflickr dataset 
表 4 在 Wikipedia 数据 集 上 的 不 同 批量 大 小 训练 
Tab.4 The different batch size training on Wikipedia dataset 
- "em 是 否 使 MAP (image 一 text) MAP (text 一 image) 总 的 MAP 每 轮训 练 时 间 
批量 入 小 F 正 交 正则 化 16 32 64 16 32 64 16 32 64 16 32 64 
512 0.02 N 0.5406 | 0.5506 0.5612 0.8280 0.8524 0.8432 1.3686 1.4030 1.4044 9.3s 9.6s 102s 
512 0.02 Y 0.5588 0.5629 0.5691 0.8312 0.8576 0.8479 1.3900 1.4205 1.4170 16.0s 16.3s 16.8s 
2048 0.04 N 0.5509 0.5594 0.5699 0.8231 0.8462 0.8326 1.3740 1.4056 1.4025 8.ls 82s 8.Ss 
2048 0.04 Y 0.5559 0.5668 0.5702 0.8380 0.8486 0.8545 1.3939 1.4154 1.4247 10.9s 11.0s 11.3s 
8192 0.08 N 0.5487 0.5563 0.5649 0.8217 0.8431 0.8327 1.3704 1.3994 1.3976  7.5s 7.5s  7.9s 
8192 0.08 Y 0.5528 0.5712 0.5688 0.8426 0.8502 0.8572 1.3954 1.4214 1.4260 82s 83s  8.6s 
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